Мат.стат. и теория вероятностей / Лекции / Л4 - матстат
.pdf1
Лекция №4
ПРОВЕРКА ГИПОТЕЗ СОГЛАСИЯ РАСПРЕДЕЛЕНИЙ
1. Возможные постановки задач
Гипотезы согласия распределений формулируются, как правило, в рамках следующих задач.
Задача 1. Дана выборка |
X объема n из |
некоторой генеральной |
||
совокупности. На некотором числе - |
m интервалов группирования получены |
|||
гистограмма относительных |
частот |
f * (x) |
и |
эмпирическая функция |
распределения F * (x) . Выдвигаются две гипотезы: |
|
H0 : f * (x) f (x) H1 : f * (x) f (x)
или F * (x) F (x) , или F * (x) F (x) ,
где f (x) - известная генеральная плотность вероятности; F (x) - известная генеральная функция распределения.
Задача 2. Даны две выборки X и Y объемов n1 и n2 из некоторых генеральных совокупностей. Выдвигаются две гипотезы:
H0 : f (x) f ( y) |
или |
F (x) F ( y) , |
H1 : f (x) f ( y) |
или |
F (x) F ( y) , |
где f (x) , f ( y) - неизвестные генеральные плотности вероятности; F (x) , F ( y) - неизвестные генеральные функции распределения.
Частные случаи параметризации второй постановки задачи:
1) Задача сдвига: Пусть f (x) f ( y ) . Выдвигаются две гипотезы:
H0 : 0 , |
H1 : 0 . |
2) Задача масштаба: Пусть f (x) f ( y ) . Выдвигаются две гипотезы:
H0 : 1, |
H1 : 1. |
Л 4 Математическая статистика. Стаценко И.В.
2
0.4
0.3
f(x)
0.2 f1(x)
0.1
5 |
3.625 |
2.25 |
0.875 0.5 |
1.875 |
3.25 |
4.625 |
6 |
|
|
|
x |
|
|
|
|
Рис. 1. Задача сдвига на примере нормальных распределений 1.
0.4
0.3
f(x)
0.2
f1(x)
0.1
7 |
5.25 |
3.5 |
1.75 |
0 |
1.75 |
3.5 |
5.25 |
7 |
|
|
|
|
x |
|
|
|
|
Рис. 2. Задача масштаба на примере нормальных распределений 2.
Среди сотен критериев согласия наиболее известными являются в задаче I) неранговые критерии: хи-квадрат, Колмогорова-Смирнова, а в
задаче II) ранговые критерии: Вилкоксона-Манна-Уитни, Ван дер Вардена, Муда. Нуль-гипотеза задачи сдвига может также проверяться с использованием Т-статистики Стьюдента (о равенстве средних), дисперсионного анализа, а нуль-гипотеза задачи масштаба может проверяться с использованием F-статистики Фишера (проверка однородности дисперсии). В отличие от критериев Фишера и Стьюдента, использующих выборки из нормальных генеральных совокупностей, ранговые критерии являются свободными от распределения, те есть более универсальными по отношению к множеству предъявления.
Л 4 Математическая статистика. Стаценко И.В.
3
2. Критерий согласия хи-квадрат (Пирсона)
Критерий хи-квадрат ( 2 ) используется в рамках постановки рассмотренной задачи 1 для следующих двух гипотез:
|
H |
0 |
: f * (x) f (x) , |
|
||
|
|
|
|
|
|
|
|
H : f * (x) f (x) . |
|
||||
|
|
1 |
|
|
|
|
Статистика критерия имеет вид: |
|
|||||
|
2 |
|
|
m |
pi* pi 2 |
(1) |
|
n |
, |
||||
|
|
|
|
i 1 |
pi |
|
где pi - теоретическая вероятность попадания генерального признака X в
i - й интервал группирования для гистограммы относительных частот, построенной на m интервалах; pi* - относительная частота попадания выборочных значений в i - й интервал группирования; n - объем выборки.
Статистика 2 имеет распределение хи-квадрат с числом степеней свободы k m l 1, где l - число оцениваемых (неизвестных) параметров
генерального |
распределения. |
Гипотеза |
H0 принимается |
на уровне |
||||||||
значимости , если выполняется условие: |
|
|
||||||||||
|
|
|
|
|
2 2 |
|
m l 1 , |
(2) |
||||
|
|
|
|
|
|
|
1 |
|
|
|
||
где |
2 |
m l 1 |
квантиль |
уровня 1 распределения |
хи-квадрат с |
|||||||
|
1 |
|
|
|
|
|
|
|
|
|
|
|
числом степеней свободы |
|
m l 1 |
|
. Таким образом, критическая область |
||||||||
|
|
|
|
|
|
|
|
|
|
|
для данного критерия правосторонняя.
Замечание 1: учитывая то обстоятельство, что пороговое значение статистики хи-квадрат зависит от величины m - числа интервалов группирования гистограммы относительных частот, статистику применяют, как правило, если на каждом интервале группирования выполняется условие: npi 5 .
Пример 1. Группированный ряд относительных частот некоторого признака Z представлен в таблице:
|
|
|
|
|
|
|
|
|
|
|
|
zi |
3; 2 |
|
2; 1 |
|
1; 0 |
0;1 |
1; 2 |
2; 3 |
|
|
p* |
2 / 90 |
|
14 / 90 |
|
24 / 90 |
31/ 90 |
16 / 90 |
3/ 90 |
|
|
i |
|
|
|
|
|
|
|
|
|
На уровне значимости |
0,05 с использованием критерия хи-квадрат |
|||||||||
проверить гипотезу о |
согласии |
данного |
эмпирического |
распределения с |
Л 4 Математическая статистика. Стаценко И.В.
4
табличным нормальным распределением: Z N 0,1 . Объем выборки
n 90.
Решение:
1. Визуализация распределения по гистограмме
Рис. 3. Ненормализованная гистограмма относительных частот
2. Расчет критерия 2 :
Представим таблицу эмпирических и теоретических частот попадания случайной величины Z в интервалы группированного ряда
|
|
|
|
|
|
|
z |
3; 2 |
2; 1 |
1; 0 |
0;1 |
1; 2 |
2; 3 |
i |
|
|
|
|
|
|
pi* |
2 / 90 |
14 / 90 |
24 / 90 |
31/ 90 |
16 / 90 |
3/ 90 |
pi |
0,021 |
0,136 |
0,341 |
0,341 |
0,136 |
0,021 |
|
|
2 / 90 0,021 |
2 |
14 / 90 0,136 |
2 |
|
|
|
|
3 / 90 0,021 |
2 |
|
|
||
2 90 |
|
|
... |
|
|
3, 491 |
|||||||||
|
|
|
|
|
|
||||||||||
|
|
0,021 |
|
|
0,136 |
|
|
|
|
|
0,021 |
|
|
|
|
|
|
|
|
0,95 |
|
0,95 |
|
|
|
|
|
|
|
|
|
|
|
2 3, 49 ; |
|
|
|
|
|
|
|
||||||
Ответ 1: |
2 |
6 0 1 |
2 |
|
|
5 |
|
11,07 . |
|
|
|
||||
Так как |
|
2 0,952 5 |
гипотеза согласия принимается. |
|
|
|
Л 4 Математическая статистика. Стаценко И.В.
5
Заметим, что для крайних значений ряда относительных частот не выполняются условия замечания 1, так как npi 5 (для первого столбца n 2, p1 0,021). Перегруппируем интервальный ряд в виде:
i |
|
|
|
|
|
|
|
z |
|
3; 1 |
|
1; 1 |
1; 3 |
|
|
|
|
|
|
||||
|
|
|
|
|
|||
pi* |
16 / 90 |
|
55 / 90 |
19 / 90 |
Найдем теоретические вероятности попадания стандартной нормальной величины в новые интервалы:
i |
|
|
|
|
|
|
|
|
z |
|
3; 1 |
|
1; 1 |
1; 3 |
|
||
|
|
|
|
|||||
|
|
|
|
|
||||
pi* |
16 / 90 |
|
55 / 90 |
19 / 90 |
||||
pi |
0,157 |
|
0,683 |
|
0,157 |
Далее получим 2 2,572 .
Ответ 2: 2 2,572 ; 0,952 3 0 1 0,952 2 5,99 .
Так как 2 |
0,952 |
2 гипотеза согласия принимается. |
3. Критерий Вилкоксона-Манна-Уитни
Фрэнк Уилкоксон 1892-1965 гг– американский химик и статистик, Манн Генри Бертольд 1905-2000 гг– австрийский и американский математик и статистик,
Дональд Рансом Уитни 1915-2001 американский статистик.
Критерий Вилкоксона-Манна-Уитни используется для рассмотренной задачи 2 (в задаче сдвига). Даны две выборки X и Y объемов n1 и n2 из
некоторых генеральных совокупностей.
Статистика W данного критерия работает с последовательностью рангов объединенной выборки. Расположим n1 n2 значений объединенной
выборки в порядке возрастания. Каждому элементу выборки присвоим свой ранг – номер в ряде. Если несколько элементов выборки равны по значению, то каждому из них присваивается ранг равный среднему арифметическому их номеров в объединенном (вариационном) ряде.
Л 4 Математическая статистика. Стаценко И.В.
6 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Пусть |
R1 - сумма рангов элементов первой выборки в вариационном |
|||||||||||||||||||
ряде; R2 - сумма рангов элементов второй выборки в вариационном ряде. |
||||||||||||||||||||
Найдем вспомогательные величины: |
|
|
|
|
|
|
|
|
|
|
||||||||||
|
w n n |
|
n1 |
n1 1 |
R , |
|
|
|
|
(3) |
||||||||||
|
|
|
|
|
|
|
|
|
|
|
||||||||||
|
1 |
1 |
2 |
|
|
|
|
|
|
2 |
|
|
|
1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
w n n |
|
n2 n2 |
1 |
R . |
|
|
|
|
(4) |
||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||
|
2 |
1 |
2 |
|
|
|
|
|
|
2 |
|
|
|
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Далее |
определяют |
величину |
wн min w1, w2 . В |
таблице (см. |
||||||||||||||||
Приложение 1) приводятся величины |
p P W wн |
/ H0 |
для |
выборок |
||||||||||||||||
n1 n2 . |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
В задаче сдвига f (x) f ( y ) для гипотез |
|
|
|
|
|
|||||||||||||||
|
|
|
|
|
|
|
H0 : 0 , |
|
|
|
|
|
|
|
||||||
|
|
|
|
|
|
|
H1 : 0 , |
|
|
|
|
|
|
|
||||||
нуль-гипотеза отклоняется, |
если |
p / 2, где |
|
- заданный |
уровень |
|||||||||||||||
значимости. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Если |
объем каждой |
|
выборки |
больше |
8, |
то |
проверку |
гипотезы |
||||||||||||
H0 можно проводить, используя статистику |
|
|
|
|
|
|
|
|||||||||||||
|
|
|
|
|
|
|
W 0,5n1n2 |
|
|
|
|
|
||||||||
|
Z |
12 |
|
. |
|
|
|
(5) |
||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
n1n2 n1 n2 1 |
|
|
|
||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
||||||||||
Статистика |
имеет нормальное распределение |
с |
параметрами |
mz 0 ; |
z 0 (табличное нормальное распределение).
Взадаче сдвига f (x) f ( y ) для гипотез
H0 : 0 ,
H1 : 0 ,
нуль-гипотеза отклоняется, если |
|
zн |
|
u1 /2 , |
где - заданный |
уровень |
||||||
|
|
|||||||||||
значимости; |
zн Z (wн ); |
u1 /2 - |
|
квантиль |
табличного |
нормального |
||||||
распределения уровня 1 / 2 . |
|
|
|
|
|
|
|
|
|
|||
Примечание. В |
задаче |
|
сдвига f (x) f ( y ) |
для |
гипотез |
|||||||
H0 : 0 , |
H1 : 0, |
|
|
u1 , где - |
||||||||
нуль-гипотеза отклоняется, если |
zн |
|
||||||||||
заданный уровень значимости; |
zн Z (wн ); |
u1 - квантиль табличного |
||||||||||
нормального распределения уровня 1 . |
|
|
|
|
|
Л 4 Математическая статистика. Стаценко И.В.
7
Пример 2.
Дано: две выборки из некоторых генеральных совокупностей
|
X |
|
|
|
|
|
|
|
|
|
|||
|
|
|
3, |
5, |
5, |
6, |
7, |
7, |
8 ; |
||||
|
|
|
|
|
|
|
|
|
|
|
|||
Y |
|
|
|
|
1, |
2, |
4, |
4, |
6, |
8, |
9 . |
Сформулируем гипотезы
H0 : 0 ,
H1 : 0 ,
для уровня значимости 0,05 |
в задаче сдвига f (x) f ( y ) . |
Решение:
Проведем ранжирование элементов в общей последовательности рангов, с параллельным окрашиванием элементов выборок разными цветами:
номера |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
13 |
14 |
ранги |
1 |
2 |
3 |
4,5 |
4,5 |
6,5 |
6,5 |
8,5 |
8,5 |
10,5 |
10,5 |
12,5 |
12,5 |
14 |
выборка |
1 |
2 |
3 |
4 |
4 |
5 |
5 |
6 |
6 |
7 |
7 |
8 |
8 |
9 |
R1 58 - сумма рангов элементов первой выборки в вариационном ряде; R2 44 - сумма рангов элементов второй выборки в вариационном ряде.
w n n |
n1 n1 |
1 |
R |
19 |
; |
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
||||||||
1 |
1 |
2 |
2 |
|
|
|
1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
w n n |
|
n2 n2 |
1 |
R |
|
33 . |
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
||||||
2 |
1 |
2 |
2 |
|
|
2 |
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
min w1, w2 19 . |
|
|
|
|
|
|
|
|
|
|
|
|||||
P 0, 267 ( см. Приложение 1 |
для n n |
7 и min |
|
w , w |
|
19 ), |
||||||||||
Т |
|
|
|
|
|
|
|
|
|
|
1 2 |
|
1 2 |
|
||
Ответ: |
так как |
P 0, 267 0,025 |
нуль-гипотеза об отсутствии |
|||||||||||||
|
|
|
|
|
|
Т |
|
|
|
|
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
сдвига принимается.
Л 4 Математическая статистика. Стаценко И.В.
8
Пример 3.
Дано: две выборки из некоторых генеральных совокупностей
|
X |
|
|
|
|
|
|
|
||||
|
|
|
1, |
2, |
3, |
4, 5, 5, 8 |
|
; |
||||
|
|
|
|
|
|
|
|
|
|
|||
Y |
|
|
|
|
4, |
6, |
6, |
7, 7, 8, |
9 . |
Сформулируем гипотезы
H0 : 0 ,
H1 : 0 ,
для уровня значимости 0,05 |
в задаче сдвига f (x) f ( y ) . |
Решение:
Проведем ранжирование элементов в общей последовательности рангов, с параллельным окрашиванием элементов выборок разными цветами:
номера |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
13 |
14 |
ранги |
1 |
2 |
3 |
4,5 |
4,5 |
6,5 |
6,5 |
8,5 |
8,5 |
10,5 |
10,5 |
12,5 |
12,5 |
14 |
выборка |
1 |
2 |
3 |
4 |
4 |
5 |
5 |
6 |
6 |
7 |
7 |
8 |
8 |
9 |
R1 33 - сумма рангов элементов первой выборки в вариационном ряде; R2 69 - сумма рангов элементов второй выборки в вариационном ряде.
w n n |
n1 n1 |
1 |
R |
44 |
; |
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
||||||||
|
|
|
|
|
|
|
|
|
||||||||
1 |
1 |
2 |
2 |
|
|
|
1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
w n n |
|
n2 n2 |
1 |
R |
|
8 . |
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
||||||
2 |
1 |
2 |
2 |
|
|
2 |
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
min w1, w2 8. |
|
|
|
|
|
|
|
|
|
|
|
|
||||
P 0,019 ( см. Приложение 1 |
для n n |
7 и min |
|
w , w |
|
8), |
||||||||||
Т |
|
|
|
|
|
|
|
|
|
|
1 2 |
|
1 2 |
|
||
Ответ: |
так как |
P 0,019 0,025 |
нуль-гипотеза об отсутствии |
|||||||||||||
|
|
|
|
|
|
Т |
|
|
|
|
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
сдвига отклоняется.
Л 4 Математическая статистика. Стаценко И.В.
9
4. Критерий Муда (Mood A.M.)
Критерий Муда используется для рассмотренной задачи 2 (в задаче масштаба). Даны две выборки X и Y объемов n1 и n2 из некоторых
генеральных совокупностей. Критерий применяется в условиях, когда для тех же выборок подтвердилась нуль-гипотеза в задаче сдвига. Статистика критерия имеет вид:
ˆ |
m |
|
|
n1 n2 |
1 2 |
|
||
M Rxi |
|
2 |
|
|
, |
(6) |
||
|
i 1 |
|
|
|
|
|
|
где Rxi - ранги элементов первой выборки в объединенном вариационном
ряду; n1 n2 .
В задаче масштаба f (x) f ( y ) для гипотез
H0 : 1,
H1 : 1,
нуль-гипотеза принимается, если т1 p |
|
ˆ |
m2 |
p , где |
|
|
p 1 , - |
|||||||||||||||||||
M |
|
|
||||||||||||||||||||||||
заданный уровень значимости. Величины |
|
|
т1 p , m2 p приведены в |
|||||||||||||||||||||||
таблице Приложения 2. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
M M |
|
ˆ |
|
|
0,5 |
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
M |
|
|||||||||||
При |
n , n 10 |
|
|
величина |
M * |
|
|
|
|
|
|
|
|
|
|
|
|
имеет |
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||
|
|
1 |
2 |
|
|
|
|
|
|
|
|
|
|
|
|
D M |
|
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
ˆ |
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
распределение близкое к нормальному, где |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||
|
|
|
|
|
ˆ |
|
|
n1 n1 n2 1 n1 n2 1 |
|
|
|
|
|
|
|
|
||||||||||
|
|
|
M M |
|
|
|
|
|
|
|
|
|
|
|
|
|
, |
|
|
|
|
|
|
(7) |
||
|
|
|
|
|
|
|
|
12 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
ˆ |
|
|
n1n2 n1 n2 1 n1 n2 2 n1 n2 2 |
|
|
|
|||||||||||||||||||
D M |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
. |
(8) |
||
|
|
|
|
|
|
|
|
180 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
Нуль-гипотеза принимается, если |
|
M |
* |
|
u |
|
|
, |
где |
|
- |
заданный |
||||||||||||||
|
|
|
|
|
||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 /2 |
|
|
|
|
|
|
|
|
|
|
уровень значимости; u1 /2 - квантиль табличного нормального распределения уровня 1 / 2 .
Л 4 Математическая статистика. Стаценко И.В.
10
Пример 4.
Дано: две выборки из некоторых генеральных совокупностей
|
X |
|
|
|
|
|
|
|
|
|
|||
|
|
|
3, |
5, |
5, |
6, |
7, |
7, |
8 ; |
||||
|
|
|
|
|
|
|
|
|
|
|
|||
Y |
|
|
|
|
1, |
2, |
4, |
4, |
6, |
8, |
9 . |
Для данных выборок подтверждена нуль-гипотеза в задаче сдвига см. пример
2.
Сформулируем гипотезы
H0 : 1,
H1 : 1,
для уровня значимости 0,05 |
в задаче масштаба f (x) f ( y ) . |
Решение:
Проведем ранжирование элементов в общей последовательности рангов, с параллельным окрашиванием элементов выборок разными цветами:
номера |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
13 |
14 |
ранги |
1 |
2 |
3 |
4,5 |
4,5 |
6,5 |
6,5 |
8,5 |
8,5 |
10,5 |
10,5 |
12,5 |
12,5 |
14 |
выборка |
1 |
2 |
3 |
4 |
4 |
5 |
5 |
6 |
6 |
7 |
7 |
8 |
8 |
9 |
Найдем М статистику
ˆ |
m |
|
|
n1 n2 |
1 2 |
|
|
|
15 2 |
|
|
|
|
15 2 |
|
|
15 2 |
|
||||
M Rxi |
|
2 |
|
|
|
3 |
|
|
|
2 |
|
6,5 |
|
|
|
... 12,5 |
|
|
|
66, 25 |
||
|
i 1 |
|
|
|
|
|
|
|
2 |
|
|
|
|
2 |
|
|
2 |
|
В таблице Приложения 2 для n1 n2 |
7 найдем: |
|
т1 0,95 60; |
m2 0,95 168. |
|
Ответ: Так как |
ˆ |
p нуль-гипотеза принимается. |
т1 p M m2 |
Л 4 Математическая статистика. Стаценко И.В.